PDF Extractor SDK dla programistów Windows: PDF do tekstu, PDF do XML, obrazy z PDF, odczyt informacji PDF, PDF do CSV dla Excel.
Bytescout PDF Extractor SDK pozwala konwertować PDF na tekst, PDF na XML, PDF na CSV, wyodrębnić obrazy z PDF, wyodrębnić informacje o plikach PDF w interfejsach .NET i ActiveX bez dodatkowego oprogramowania.
Korzyści:
konwertuje PDF na zwykły tekst (i może śledzić kolumny, jeśli konwertujesz gazetę w formacie PDF) - w tym niewidoczne wyodrębnianie tekstu;
konwertuje tabele z pliku PDF na Excel (CSV), odczytując komórki z podanego prostokąta;
konwertuje tabele w plikach PDF na XML;
wyodrębnia metadane pliku PDF (tytuł, autor, opis) i pobiera inne informacje o pliku (liczba stron, zaszyfrowana lub nie);
wyodrębnia osadzone obrazy z dokumentu PDF (w ASP.NET, VB.NET, C #, VB6 i VBScript);
Interfejsy DocumentMerger i DocumentSplitter oraz klasy do łączenia i dzielenia dokumentów PDF;
nie wymaga instalowania programu Adobe Reader ani żadnego innego oprogramowania do odczytu plików PDF;
zapewnia interfejsy .NET i ActiveX;
wykonane w 100% z zarządzanego kodu C #.
Co nowego w tej wersji:
Wersja 9.0.0.3079: Dodano filtrowanie wyodrębnionej treści według nazwy, rozmiaru i koloru czcionki.
Zaktualizowany silnik OCR do najnowszej wersji. Zaktualizuj pliki językowe z folderu "tessdata".
Ulepszono wyodrębnianie tekstu, grupowanie linii w danych tabelarycznych, wydajność, wyodrębnianie formularzy XFA, TableDetector, rozwiązywanie problemów z parsowaniem PDF.
Co nowego w wersji 8.7.0.2980:
Dodano filtrowanie wyodrębnionej treści według nazwy czcionki, rozmiaru i koloru czcionki.
Zaktualizowany silnik OCR do najnowszej wersji. Zaktualizuj pliki językowe z folderu "tessdata".
Ulepszono wyodrębnianie tekstu, grupowanie linii w danych tabelarycznych, wydajność, wyodrębnianie formularzy XFA, TableDetector, rozwiązywanie problemów z parsowaniem PDF.
Co nowego w wersji 8.6.0.2911:
Dodano filtrowanie wyodrębnionej treści według nazwy czcionki, rozmiaru i koloru czcionki.
Zaktualizowany silnik OCR do najnowszej wersji. Zaktualizuj pliki językowe z folderu "tessdata".
Ulepszono wyodrębnianie tekstu, grupowanie linii w danych tabelarycznych, wydajność, wyodrębnianie formularzy XFA, TableDetector, rozwiązywanie problemów z parsowaniem PDF.
Co nowego w wersji 8.2.0.2699:
Wersja 8.2.0.2699 może zawierać nieokreślone aktualizacje, ulepszenia lub poprawki błędów.
Co nowego w wersji 8.0.0.2528:
Co nowego w wersji 7.0.0.2474:
Wersja 7.0.0.2474:
- dodano nową klasę narzędziową DocumentPrinter pozwalającą na ciche drukowanie dokumentów PDF (bez okien dialogowych użytkownika)
les an an an an an an an an an an an an an an an an an 00 00stst an an an an an an an an anstst an an an an an an an an an an an an an an an an an an an an an an an an an an an an an an an an anst 00 00 00 an an anst an an an an an an - dodano zastąpienie dla metody DocumentSplitter.Split () pozwalającej na określenie folderu wyjściowego dla wygenerowanych plików
- Naprawiono błąd wielowątkowości w DocumentSplitter
- tableDetector respektuje teraz obszar ekstrakcji ustawiony za pomocą metody SetExtractionArea ()
- nowe właściwości w klasach ekstrakcji: ExtractionColumns - zawiera współrzędne wykrytych kolumn; CustomExtractionColumns - pozwala zastąpić wykrywanie kolumn
- Metody GetPageRect * nie uwzględniały rotacji stron.
An an an an an an an an an an an an an an anststst anstles an anles anles anles anles anst anles anst anles an anst an 00les anst anst anst anst anst an an anst an 00les anst anst anles anst anst anst an anst an anst an - przerobił sprawdzanie rejestracji. Biblioteka nie rzuca wyjątku, ale działa w trybie demonstracyjnym, jeśli pominięto lub wprowadzono nieprawidłową nazwę RegistrationName i RegistrationKey
- Multitool PDF: Dodano ostatnią listę dokumentów do przycisku "Otwórz dokument PDF"
- Multitool PDF: teraz można zmienić rozmiar zaznaczenia
- Multitool PDF: Dodano funkcję Extract JSON
- Multitool PDF: Ulepszony interfejs użytkownika detektora tabel
- Multitool PDF: Znacznie ulepszona jakość renderowania czcionek
- Multitool PDF: Dodano opcję debugowania "Pokaż wykryte kolumny ekstrakcyjne" do menu kontekstowego, aby wyświetlić wykryte kolumny na bieżącej stronie. Staje się widoczny dopiero po uruchomieniu dowolnego ekstrakcji względem bieżącej wyświetlanej strony
- Multitool PDF: Naprawiono problem z renderowaniem czcionek w 32-bitowym systemie Windows
- inne drobne ulepszenia i poprawki błędów
Co nowego w wersji 6.30.0.2421:
wersja 6.30.0.2421:
- Dodano klasę narzędzi TextComparer (dostępną tylko w zestawach .NET 4.0) umożliwiającą porównywanie tekstu w dwóch dokumentach PDF i generowanie raportu.
- Poprawiona obsługa profili kolorów ICC.
- Imporved obsługa osadzonych czcionek.
- Improved AttachmentExtractor.
- Naprawiono metodę XMLExtractor.SaveXMLToStream ().
- Naprawiono wyodrębnioną duplikację tekstu podczas korzystania z opcji OCRCacheMode.WholePage.
- Inne poprawki i ulepszenia.
Co nowego w wersji 6.20.2354:
Wersja 6.20.2354:
- PDF do tekstu, PDF do CSV, PDF do poprawionych funkcji XML
- Nowe wyodrębnianie wideo, wyodrębnianie przykładów audio
- Ekstraktory CSV i XML poprawiły obsługę tabel z pustymi kolumnami wewnątrz
- nowy MultimediaExtractor do wyodrębniania wideo i audio z pliku PDF
- nowa właściwość PageDataCaching
- nowy przykład "MemoryCareProcessingOfHugeFiles"
- Naprawiono wyjątek zerowy podczas próby unieszkodliwienia już zutylizowanych stron
- XLSExtractor: ulepsza obsługę czcionek
- SkipInvisibleText pomija teraz obcięty tekst (który nie jest widoczny)
- Poprawiono renderowanie tekstu wyjściowego
- XFDF Extractor: dodano obsługę pól wyboru
- Wydruk zdjęć poprawiono, aby obsługiwać więcej pod-formatów
- Poprawiono obsługę tekstu w Unicode
Co nowego w wersji 6.11.2149:
Wersja 6.11.2149:
- Przetwarzanie wsadowe zostało zaktualizowane, aby pokazać użycie metody resetowania ()
- Dodano przykład kodu źródłowego C ++ do ekstrakcji stron
- DocumentMerger dodaje metodę Merge2 (inputfile1, inputfile2, outputfile) do scalenia 2 plików
- XLS Extractor drobne poprawki błędów
- Multitool PDF pozwala teraz włączać / wyłączać warstwy tekstowe, graficzne, wektorowe, dodaje zaawansowane ustawienia do ekstrakcji tekstu
- XML, CSV, ekstrakcja tabel poprawia obsługę tablic z komórkami emtpry wewnątrz kolumn
- Poprawiono właściwość ExtractShadowLikeText: lepsze filtrowanie tekstu podobnego do cienia
Co nowego w wersji 6.10.2136:
Wersja 6.10.2136:
- PDF do XML, PDF do CSV, poprawiono funkcjonalność PDF do tekstu
- Dodano przykładową komendę PDF To XLS (w oparciu o vbscript)
- PDF To HTML SDK dodaje nową właściwość .DetectHyperLinks (domyślnie PRAWDA), aby włączyć / wyłączyć automatyczne wykrywanie linków w tekście
- nowy SearchablePDFMaker (dostępny na licencje PRO) do konwersji plików PDF na pliki PDF z możliwością wyszukiwania
- nowe właściwości w ekstraktorze: ConsiderFontNames, ConsiderFontSizes, ConsiderFontColors, ConsiderVerticalBorders w plikach CFG
- Wykryto kolumny nagłówków (gdy AutoAlighHeaderToColumns = true)
- .DetectLinesInsteadOfParagraphs zastąpiono nową .LineGroupingMode, aby kontrolować sposób łączenia wierszy w akapity
- WAŻNE! PDF To XML rozwiązuje problem długiego czasu z niepoprawną współrzędną Y dla obiektów tekstowych (był skierowany do lewego dolnego rogu zamiast lewego górnego rogu)
Dodano - .TableXMinIntersectionRequiredInPercents i .TableYMinIntersectionRequiredInPercents
- Dodano przykład kodu źródłowego C ++
- Moduł XML Extractor naprawia brakujące puste kolumny w trybie PreserveFormatting = true
- drobne poprawki w kolorach w niektórych plikach PDF
- Obsługa wielu języków OCR
- Interfejs GUI dla wielu narzędzi PDF: dodaje przycisk Kopiuj do schowka do okien dialogowych TXT, CSV, XML i renderów rastrowych
- XLSExtractor: dodaje właściwość PageToWorksheet do włączania / wyłączania generowania osobnych arkuszy na stronie
- nowa właściwość .TextEncodingCodePage
- PDFViewerControl: dodaje ValidateContextMenu pozwalając użytkownikowi dodawać niestandardowe elementy do menu kontekstowego
- Kontrola przeglądarki PDF: dodaje właściwości ShowTextObjects, ShowImageObjects, ShowVectorObjects
- XMLExtractor dodaje teraz atrybut "OCRConfidence" dla rozpoznanego tekstu
- PDF / Funkcja sprawdzania (w wersji beta)
- poprawa kontroli i sprawdzania tekstu oraz wyrównania zgodnie z oryginalnym układem. Problem został spowodowany przesunięciem współrzędnych Y w kontrolach podczas analizowania: to było nieprawidłowe. Prawidłowy sposób to shif ...
- Odświeżacz XML zaktualizowany: teraz produkuje znacznik CONTROL dla pól wyboru i pól tekstowych
- zmieniono użycie bieżącego katalogu na katalog tymczasowy
- pola wyboru, radioboxes, editboxes, comboboxes są lepiej obsługiwane
- teraz zezwala na częściowe wywoływanie zaufania
Co nowego w wersji 5.80.1781:
Wersja 5.80.1781:
- PDF na XML, PDF na CSV, zaktualizowano funkcjonalność PDF do tekstu
- OCRMode zapewnia teraz 9 trybów
- .DetectLineInsteadOfParagraph działa teraz znacznie lepiej. Ustaw go na False, aby przechwytywać tekst wielowierszowy w komórkach tabeli!
- Udoskonalono obsługę kontroli plików PDF
- Wyodrębnianie danych FDF i XFDF
Co nowego w wersji 5.10.1747:
Wersja 5.10.1747:
- Poprawiono PDF na XML, PDF na CSV, PDF na tekst
- teraz obsługuje ekstrakcję tekstu z kontroli tekstu
- Ekstraktor XML dodaje teraz styl czcionki, rozmiar, nazwę, współrzędne tekstu do znaczników
- Dodano przykład ASP.NET do użycia OCR
- nowa właściwość OCRLanguageDataFolder w celu określenia lokalizacji folderu "tessdata"
- ulepszona obsługa plików PDF
- usprawnia obsługę obróconego tekstu
- zaktualizowano próbki kodu źródłowego
- zaktualizowano dokumentację
- drobne ulepszenia i poprawki
Co nowego w wersji 5.00.1626:
Wersja 5.00.1626:
- Dodano funkcję OCR (tekst z obrazków): teraz możesz wyodrębnić tekst z osadzonych obrazów i naprawić uszkodzony tekst
- Problem rozwiązany przy użyciu ekstraktora CSV i XML, brakuje niektórych ostatnich kolumn z niektórymi ustawieniami
- poprawiono obsługę uszkodzonych plików PDF
- Wyszukiwanie tekstu wyszukiwania wielowierszowego z trybami dopasowywania słów jest teraz obsługiwane
- teraz może wyszukiwać tekst za pomocą myślników i na różnych liniach: zobacz nowy przykład kodu źródłowego Znajdź tekst z łącznikami
- nowa właściwość .RTLTextAutoDetectionEnabled (domyślnie wartość false) w celu automatycznego wykrywania języków RTL
- Ulepszono wersję demonstracyjną GUI przeglądarki PDF
- drobne ulepszenia i poprawki
Wymagania :
.NET Framework 2.0 lub nowszy
Ograniczenia
strong>:Ekran Nag, znak wodny na wyjściu
Komentarze nie znaleziono